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(57) Abstract: The invention concerns a speech recognition device (1) comprising an audio processor (2) for acquiring an audio 
signal and a linguistic decoder (6) for determining a sequence of words corresponding to the audio signal. The linguistic decoder 
of the inventive device comprises a language model (8) determined from a first set of at least a syntactic block defined only by a 
grammar and a second set of at least a second syntactic block defined by one of the following elements, or a combination of said 
elements: a grammar, a list of sentence segments, a n-gram system. 

(57) Abrege: L' invention conceme un dispositif de reconnaissance vocale (1) comportant un processeur audio (2) pour Tacquisition 
d'un signal audio et un decodeur linguistique (6) pour de*terminer une sequence de mots correspondant au signal audio. Le decodeur 
linguistique du dispositif de 1'invention comporte un modele de langage (8) determine* a partir d'un premier ensemble d'au moins 
un bloc syntaxique deTmi uniquement par une grammaire et d'un second ensemble d'au moins un second bloc syntaxique de'fini par 
Tun des elements suivants, ou une combinaison de ces elements: une grammaire, une liste de troncons de phrase, un rgseau n-gram. 
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RECONNAISSANCE DE PAROLE AVEC UN MODELE DE LAGAGE COMPLEMENTAIRE POUR LES ERREURS 

TYPES DU DIALOGUE PARLE 

5 L'invention concerne un dispositif de reconnaissance vocale 

comportant un modele de langage defini a I'aide de blocs syntaxiques de 
differente nature, dits blocs rigides et blocs souples. 

Les systemes d'information ou de contrdle utilisent de plus en plus 
10 souvent une interface vocale pour rendre Interaction avec Putilisateur rapide 
et intuitive. Ces systemes devenant plus complexes, les styles de dialogue 
supportes sont de plus en plus riches, et Ton rentre dans le domaine de la 
reconnaissance vocale continue £ tres large vocabulaire. 

15 On sait que la conception d'un systeme de reconnaissance vocale 

continue a large vocabulaire suppose de produire un Modele de Langage qui 
definit la probability pour qu'un mot donne du vocabulaire de Implication 
suive un autre mot ou groupe de mots, dans I'ordre chronologique de la 
phrase. 

20 

Ce modele de langage doit reproduire le style d'elocution 
ordinairement employ^ par un utilisateur du systeme : hesitations, faux 
departs, changements d'avis, etc. 

La qualite du modele de langage utilise influe de maniere forte sur 
25 la fiabilite de la reconnaissance vocale. Cette qualite est le plus souvent 
mesuree par un indice appele perplexite du modele de langage, et qui 
repr6sente schematiquement le nombre de choix que le systeme doit realiser 
pour chaque mot d§cod6. Plus cette perplexite est basse, plus la qualite est 
bonne. 

30 

Le modele de langage est n6cessaire pour traduire le signal vocal 
en une suite textuelle de mots, 6tape souvent utilisee par les systemes de 
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dialogue. II faut alors construire une logique de comprehension qui permette 
de comprendre la requite formul6e vocalement pour y repondre. 

II existe deux methodes standards pour produire des modeles de 
5 langage a large vocabulaire : 

(1) La methode statistique dite en N-gram, le plus souvent en 
bigram ou trigram, consiste a supposer que la probability d'occurrence d'un 
mot dans la phrase depend uniquement des N mots qui le precedent, 

io independamment de son contexte dans la phrase. 

Si Ton prend I'exemple du trigram pour un vocabulaire de 1000 
mots, comme il existe 1000 3 groupes possibles de trois elements, il faudrait 
d6finir 1000 3 probabilites pour definir le modele de langage, ce qui occupe 
une taille memoire considerable et une tres grande puissance de calcul. Pour 
15 r6soudre ce probteme, les mots sont groupes en ensembles qui sont soit 
definis explicitement par le concepteur du modele, soit deduits par des 
methodes auto-organisatrices. 

Ce module de langage est construit a partir d'un corpus de texte 
de fagon automatique. 

(2) La seconde methode consiste a decrire la syntaxe au moyen 
d'une grammaire probabiliste, typiquement une grammaire non contextuelle 
definie grace a un ensemble de regies decrites sous la forme dite Backus 
Naur Form ou BNF. 

Les regies d6crivant les grammaires sont le plus souvent ecrites £ 
la main, mais peuvent egalement etre deduites de maniere automatique. A 
ce titre, on peut se referer au document suivant : 

"Basic methods of probabilistic context free grammars" par F. 
Jelinek, J.D. Lafferty et R.L. Mercer NATO ASI Series Vol. 75 pp. 345-359, 
1992. 
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Les modeles pr6cedemment decrits posent des problemes 
specifiques lorsqu'ils sont appliques a des interfaces de systemes en 
langage naturel : 

5 Les modules de langages de type N-grams (1) ne modeiisent pas 

correctement les dependances entre plusieurs sous-structures 
grammaticales distantes dans la phrase. Pour une phrase prononcee 
syntaxiquement correcte, rien ne garantit que ces sous-structures seront 
respectees au cours de la reconnaissance, ce qui fait qu'il est difficile de 
10 determiner si tel ou tel sens, habituellement porte par une ou plusieurs 
structures syntaxiques precises, est vehicule par la phrase. 

Ces modules sont adaptes a la dict6e continue, mais leur 
application dans les systemes de dialogue souffre des defauts mentionnes. 

Par contre, il est possible, dans un modele de type N-gram, de 
is prendre en compte les hesitations et des repetitions, en definissant des 
ensembles de mots regroupant les mots qui ont effectivement 6te recemment 
prononces. 

Les modules fondes sur des grammaires (2) permettent de 
20 modeiiser correctement les dependances a distance dans une phrase, et 
egalement de respecter des sous-structures syntaxiques precises. La 
perplexity du langage obtenu est souvent plus faible, pour une application 
donnee, que pour les modeles de type N-gram. 

Par contre, ils conviennent mal a la description d'un style de 
langage parle, avec prise en compte d'hesitations, de faux departs, etc. En 
effet, ces phenomenes lies au langage parle ne peuvent se pr£dire, il paraTt 
done difficile de concevoir des grammaires qui, de par leur nature, sont 
basees sur des regies de langage. 

De plus, le nombre de regies necessaires pour couvrir une 
application est tres grand, ce qui rend difficile la prise en compte de 
nouvelles phrases a ajouter au dialogue prevu sans modification des regies 
existantes. 
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invention a pour objet un dispositif de reconnaissance vocale 
comportant un processeur audio pour I'acquisition d'un signal audio et un 
5 decodeur linguistique pour determiner une sequence de mots correspondant 
au signal audio, le decodeur comportant un modele de langage (8) 

caracterise en ce que le modele de langage (8) est determine par 
deux ensembles de blocs. Le premier ensemble comprend au moins un bloc 
syntaxique rigide et le second ensemble comprend au moins un bloc 
10 syntaxique souple. 

Lassociation des deux types de blocs syntaxiques permet de 
resoudre facilement les probtemes Ii6s au langage parie tout en beneficiant 
de la moderation des dependances entre les elements d'une phrase, 
moderation facilement traitable a I'aide d'un bloc syntaxique rigide. 
15 Selon une particularite, le premier ensemble de blocs syntaxiques 

rigides est d6fini par une grammaire de type BNF. 

Selon une autre particularity le second ensemble de blocs 
syntaxiques souples est defini par un ou plusieurs reseaux n-gram, les 
donnees des reseaux n-gram etant produites £ I'aide d'une grammaire ou 
20 d'une liste de tron?ons de phrase. 

Selon une autre particularite, les reseaux n-gram contenus dans 
les seconds blocs souples contiennent des donnees permettant de 
reconnaitre les phenomfenes de langage parl6 suivants : Th6sitation simple, 
la r6p6tition simple, l*£change simple, le changement d'avis, le bafouillage. 

25 

Le module de langage selon Pinvention autorise la combinaison 
des avantages des deux systemes, en d6finissant deux types d'entites qui se 
combinent pour former le module de langage final. 

On conserve pour certaines entites une syntaxe rigide et on leur 
30 associe un parseur, tandis que d'autres sont decrites par un reseau de type 
n-gram. 



if 
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De plus, selon une variante de realisation, on definit des blocs 
libres « d6clench6s » par des blocs d'un des types precedents. 

D'autres caracteristiques et avantages de Pinvention apparaitront 
5 £ travers la description d'un mode de realisation particulier non limitatif, 
explicits a I'aide des dessins joints parmi lesquels : 

- la figure 1 est un diagramme d'un systeme de reconnaissance 

vocale, 

10 - la figure 2 est un diagramme OMT dSfinissant un bloc syntaxique 

selon Invention. 

La figure 1 est un diagramme bloc d'un exemple de dispositif 1 de 
reconnaissance de la parole. Ce dispositif comporte un processeur 2 du 

is signal audio r6alisant la numerisation d'un signal audio provenant d'un 
microphone 3 par I'intermediaire d'un circuit 4 d'acquisition du signal. Le 
processeur traduit egalement les echantilions num&riques en symboles 
acoustiques choisis dans un alphabet predetermine. II comporte a cet effet 
un decodeur acoustico-phonetique 5. Un decodeur linguistique 6 traite ces 

20 symboles dans le but de determiner, pour une sequence A de symboles, la 
sequence W de mots la plus probable, 6tant donne la sequence A. 

Le decodeur linguistique utilise un module acoustique 7 et un 
modele de langage 8 mis en ceuvre par un algorithme de recherche par 
hypoth6se 9. Le module acoustique est par exemple un module dit 'Markov 

25 cach§ ('Hidden Markov model' ou HMM). Le modele de langage mis en 
ceuvre dans le present exempte de realisation est base sur une grammaire 
decrite & I'aide de regies de syntaxe de forme Backus Naur. Le modele de 
langage est utilise pour soumettre des hypotheses 3 I'algorithme de 
recherche. Ce dernier, qui est le moteur de reconnaissance proprement dit, 

30 est pour ce qui du present exemple un algorithme de recherche base sur un 
algorithme de type Viterbi et appele 'n-best'. L'algorithme de type n-best 
determine £ chaque etape de I'analyse d'une phrase les n sequences de 
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mots les plus probables. En fin de phrase, la solution la plus probable est 
choisie parmi les n candidats. 

Les notions du paragraphe ci-dessus sont en soi bien connues de 
I'Homme du M6tier, mais des informations concernant en particulier 
5 I'algorithme n-best sont donnes dans I'ouvrage : 

"Statistical methods for speech recognition" par F. Jelinek, MIT 
Press 1999 ISBN 0-262-10066-5 pp. 79-84. D'autres algorithmes peuvent 
6galement §tre mis en ceuvre. Notamment, d'autres algorithmes de type 
'Beam Search 1 (Recherche par faisceau), dont I'algorithme 'n-besf est un 
io exemple. 

Le modele de langage de Tinvention utilise des blocs syntaxiques 
qui peuvent etre de Tun des deux types illustres par la figure 2: bloc de type 
15 rigide, bloc de type souple. 

Les blocs syntaxiques rigides sont d§finis grace a une syntaxe de 
type BNF, avec cinq regies d'ecriture : 

20 (a) <symbole A> = <symbole B> | <symbole C> ( symbole ou ) 

(b) <symbole A> = <symbole B> <symbole C> ( symbole et ) 

(c) <symbole A> = <symbole B>? (symbole facultatif ) 

25 

(d) <symbole A> = "mot lexical" ( affectation lexicale ) 

(e) <symbole A> = P{<symbole B>, <symbole C> ,...<symbole X>} 

(symbole B > <symbole C> ) 

30 ( ) 

(symbole I > <symbole J> ) 
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(toutes les permutations sans repetition des symboles cites, avec 
contraintes : le symbole B doit apparaTtre avant le symboie C, le symboie I 
avant le symbole J ... ) 

5 La mise en oeuvre de la r6gle (e) est expliquee plus en detail dans 

la demande de brevet frangais n° 9915083 s'intitulant 'Dispositif de 
reconnaissance vocale mettant en oeuvre une r6gle syntaxique de 
permutation 1 deposee au nom de THOMSON multimedia le 30 novembre 
1999. 

o 

Les blocs souples sont definis soit grace a la meme syntaxe BNF 
que pr6cedemment t soit comme une liste de tronfons de phrase, soit par 
une liste de vocabulaire et les r6seaux n-gram correspondants, soit par la 
combinaison des trois. Mais ces informations sont traduites 
5 systematiquement en un reseau n-gram et, si la definition a £te faite par un 
fichier BNF, il n'est pas garanti que seules les phrases syntaxiquement 
correctes vis-a-vis de cette grammaire puissent etre produites. 

Un bloc souple est done defini par une probability P(S) 
o d 'apparition de la suite S de n mots Wj de la forme (dans le cas d'un trigram) : 

P(S) = ni, n P(wO 

Avec P(Wi) = P(Wi|w M ,W|.2) 

5 Pour chaque bloc souple, il existe un mot special de sortie de bloc 

qui apparait dans le reseau n-gram de la meme fa?on qu'un mot normal, 
mais qui n'a pas de trace phonetique et qui autorise a sortir du bloc. 

Une fois que ces bloc syntaxiques ont ete definis ( de type n-gram 
o ou de type BNF ), ils peuvent £ nouveau etre utilises comme atomes pour 
des constructions d'ordre superieur : 
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Dans le cas d'un bloc BfMF, les blocs de niveaux inferieurs 
peuvent 6tre utilises en lieu et place de Taffectation lexicale ainsi que dans 
les autres regies. 

Dans le cas d'un bloc de type n-gram, les blocs de niveau inferieur 
5 sont utilises en lieu et place des mots w ( , et done plusieurs blocs peuvent 
s'enchainer avec une probability donn6e. 

Une fois le reseau n-gram defini, il est incorpore dans la 
grammaire BNF pr6c6demment d6crite comme un symbole particulier. On 
io peut incorporer autant de reseaux n-gram que necessaire dans la grammaire 
BNF. Les permutations utilisees pour la definition d'un bloc de type BNF sont 
traitees dans I'algorithme de recherche du moteur de reconnaissance par 
des variables de type booleen utilisees pour diriger la recherche lors de 
I'elagage classiquement mis en ceuvre dans ce type de situation. 

15 

On voit que le symbole de sortie de bloc souple peut aussi etre 
interpr6te comme un symbole de remontee au bloc superieur, qui peut etre 
lui-meme un bloc souple ou un bloc rigide. 

20 o Rfflise en place de decDencheurs 

Le formalisme pr6c6dent n'est encore pas suffisant pour decrire le 
modele de langage d'une application de dialogue homme-machine a large 
vocabulaire. Selon une variante de realisation, on y ajoute un mecanisme de 

25 declenchement ou Irigger 1 . Le declencheur permet de donner du sens a un 
mot ou a un bloc, afin de Tassocier a certains elements. Par exemple, 
supposons que le mot « documentaire » est reconnu dans le contexte d'un 
guide Glectronique de programmes audiovisuels. On peut associer a ce mot 
une liste de mots tels que « animalier t sportif, touristique ». Ces mots ont 

30 un sens pour « documentaire », et on peut s'attendre a ce que Tun d'entre 
eux soit associe a celui-ci. 



i 
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Pour cela, nous noterons <bloc> un bloc precedemment decrit et 
::<bloc> la realisation de ce bloc par une de ses instances au cours de 
I'algorithme de reconnaissance, c'est-a-dire sa presence dans la chaTne 
actuellement decodee dans I'algorithme n-best search de recherche. 

5 

Par exemple, on pourrait avoir : 

<souhait> = j'aimerais aller a | je veux me rendre a. 
<ville> = Lyon | Paris | Londres | Rennes. 
io <phrase> = <souhait> <ville> 

Alors ::<souhait> sera: 'j'aimerais aller a' pour la partie des 
chemins envisage par I'algorithme de Viterbi pour les possibles : 

15 j'aimerais aller a Lyon 

j'aimerais aller a Paris 
j'aimerais aller a Londres 
j'aimerais aller a Rennes 

20 et sera egal a 'je veux me rendre a' pour les autres. 

Les declencheurs du modele de langage sont alors definis de la 
maniere suivante : 

25 Si <symbole>:: appartient a un sous groupe donne des 

realisations possibles du symbole en question, alors un autre symbole 
<T(symbole)>, qui est le symbole cible du symbole actuel; est soit reduit a 
une sous partie de son domaine d'extension normal, c'est-a-dire a son 
domaine d'extension si le declencheur n'est pas present dans la chaTne de 

30 decodage, ( declencheur reducteur ), soit active et disponible, avec un 
facteur de branchement non nul en sortie de chaque bloc syntaxique 
appartenant au groupe dit des 'candidats activeurs' ( declencheur activeur ) 
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Notons que : 

II n'est pas n6cessaire que tous les blocs dfecrivent un processus 
5 de declenchement 

La cible d'une symbole peut etre ce symbole lui-meme, s'il est 
utilise de maniere multiple dans le modele de langage. 

II peut n'exister, pour un bloc, qu*une sous partie de son ensemble 
de realisation qui soit composante d'un m6canisme de declenchement, le 
10 complementaire n'etant pas lui-meme un declencheur. 

La cible d'un declencheur activeur peut etre un symbole facultatif. 

Les mecanisrnes de declenchement reducteurs permettent de 
traiter, dans notre modele de langage de blocs, les repetitions coherentes de 
is themes. Des informations supplementaires sur la notion de declencheur 
peuvent etre trouvees dans le document de reference deja cite, notamment 
pages 245-253. 

Les mecanisrnes de declenchement activeurs permettent de 
20 modeliser certains groupes syntaxiques libres, dans les langages fortement 
infiechis. 

II faut noter que les d6clencheurs, leurs cibles et la restriction sur 
les cibles, peuvent etre determines manuellement ou obtenus par un 
25 processus automatique, par exemple par une methode de maximum 
d'entropie. 



o Prise en compte du langage parte : 

30 

La construction pr6cedemment decrite d6finit la syntaxe du 
module de langage, sans prise en compte des hesitations, reprises, faux 
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departs, changement d'avis, etc., qui sont attendus dans un style parle. Les 
phSnomenes Ites au langage parte sont difficilement reconnaissables par une 
grammaire, du fait de leur nature non-prfedictible. Les reseaux n-gram sont 
plus adaptes pour reconnaitre ce genre de ph6nomene. 

5 

Ces phenomfcnes lies au langage parle peuvent §tre classes en 
cinq categories : 

L'hdsitation simple : je voudrais (heuuuu... silence) aller £ Lyon. 
10 La repetition simple, dans laquelle une partie de la phrase, 

( souvent les determinants et les articles, mais parfois des morceaux entiers 
de phrase ), sont purement et simplement repetes : je voudrais aller a (a a a) 
Lyon. 

L'echange simple, au cours de laquelle une formulation est 
15 remplacee, en cours de route, par une formulation de meme sens, mais 
syntaxiquement differente : je voudrais me rendre (heuuuu aller) a Lyon 

Le changement d'avis : une partie de phrase est corrigee, avec 
un sens different, au cours de l'6nonce : je voudrais aller a Lyon, (heuuuu a 
Paris 

20 Le baffouillage : je voudrais aller a (Praris Heuuu) Paris. 

Les deux premiers ph6nom6nes sont les plus frequents : environ 
80% des hesitations sont classees dans Tun de ces groupes. 

25 

Le modele de langage de invention traite ces phenomenes de la 
maniere suivahte : 

Hesitation simple : 

30 

^hesitation simple est traitee par creation de mots associes aux 
traces phon6tiques marquant Th6sitation dans la langue considSree, et qui 



WO 01/41125 



12 



PCT/FROO/03329 



sont traites de la m£me fa?on que les autres vis-a-vis du module de langage 
( probability d'apparition, d'etre suivi d'un silence, etc. ), et dans les modeles 
phon6tiques ( coarticulation, etc. ). 

On a remarque que des hesitations simples se produisent £ des 
5 endroits ptecis d'une phrase, par exemple : entre le premier verbe et le 
second verbe. Pour les traiter, un exemple de regie d'ecriture conforme £ la 
presente invention consiste : 

<Groupe verbal> = <premier verbexreseau n-gram><second verbe> 

10 

Repetition simple : 

La r6p6tition simple est traitee par une technique de cache qui 
contient la phrase analysee actuellement a cette etape du decodage. II 
is existe, dans le modele de langage, une probabilite fixe pour qu'il y ait 
branchement dans le cache. La sortie de cache est connectee au module de 
langage par bloc, avec reprise de l'6tat atteint avant I'activation du cache. 

Le cache contient en fait le dernier bloc du morceau de phrase en 
cours, ce bloc peut etre r6p6te. Par contre, si c'est le bloc avant le dernier, il 
20 ne peut etre traite par un tel cache, il faut alors revoir entferement la phrase. 

Lorsqu'il s'agit d'une repetition sur des articles, et pour les langues 
ou cela est pertinent, le cache comporte Tarticle et ses formes associees, en 
changement de nombre et de genre. 

25 En frangais par exemple, le cache pour "de" contient "du" et 

"des" . La modification de genre et de nombre est en effet frequente. 

Echange simple et changement d'avis : 

30 

L'6change simple est traite par la creation de groupes de blocs 
associ6s entre lesquels un 6change simple est possible, c'est-a-dire qu'il 
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existe une probability pcur qu'il y ait sortie du bloc et branchement au debut 
d'un des autres blocs du groupe. 

Pour I'echange simple, la sortie de bloc est coupl6e avec un 
5 d6clenchement, dans les blocs assoctes au m§me groupe, de sous parties 
de m§me sens. 

Pour le changement d'avis, soit il n'y a pas de d6clenchement, soit 
il y a d6clenchement sur les sous parties de sens distinct. 

10 

II est 6galement possible de n'avoir pas recours au 
declenchement, et de classer Th6sitation par analyse a posteriori. 

15 BafouiJIage : 

II est traite comme une repetition simple. 

L'avantage de ce mode de traitement des hesitations ( sauf pour 
20 I'hesitation simple ) est que la creation des groupes associes renforce le taux 
de reconnaissance par rapport a une phrase sans hesitation, d cause de la 
redondance dlnformation s6mantique presente. Par contre, la charge de 
calcul est plus importante. 

25 
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Revendicafions 

1. Dispositif de reconnaissance vocale (1) comportant un 
5 processeur audio (2) pour ('acquisition d'un signal audio, et un decodeur 

linguistique (6) pour determiner une sequence de mots correspondant au 
signal audio, le decodeur comportant un module de langage (8), caracterise 
en ce que le module de langage (8) est determine par un premier ensemble 
d'au moins un bloc syntaxique rigide et un second ensemble d'au moins un 
10 bloc syntaxique souple. 

2. Dispositif selon la revendication 1, caracterise en ce que le 
premier ensemble d'au moins un bloc syntaxique rigide est d£fini par une 
grammaire de type BNF. 

15 

3. Dispositif selon les revendications 1 ou 2, caracterise en ce que 
le second ensemble d'au moins un bloc syntaxique souple est defini par un 
ou plusieurs reseaux n-gram, les donnees des reseaux n-gram etant 
produites £ I'aide d'une grammaire ou d'une liste de trongons de phrase. 

20 

4. Dispositif selon la revendication 3, caracterise en ce que le 
r6seau n-gram contient des donn6es correspondant a un ou plusieurs des 
phenomenes suivants : I'hesitation simple, la repetition simple, F6change 
simple, le changement d'avis, le bafouillage. 



25 
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